Vihapuhetta tunnistavat tekoälyt menevät sekaisin ”rakkaudesta”

Uutiset

Vihapuhetta tunnistavat tekoälyt menevät sekaisin ”rakkaudesta”

Julkaistu: 14.9.2018

Tutkijat osoittivat, että sosiaalisessa mediassa ja verkkopalveluissa käytettävät vihapuheentunnistimet ovat helposti ihmisten huijattavissa.

Google Perspective arvioi verkkokommentteja loukkaavuuden perusteella. Vihapuheeksi alun perin tunnistettu lause läpäisee seulan, kun se sotketaan kirjoitusvirheellä ja sanalla ’rakkaus’.

Vihapuheen ja loukkaavan kommentoinnin määrä verkossa vain kasvaa. Sen hillitsemiseksi tarvitaan automaattisia työkaluja, jotka tunnistavat verkkopalvelujen sääntöjen vastaisen tai jopa laittoman sisällön.

Nyt Aalto-yliopiston on kuitenkin löytänyt parhaistakin koneoppimiseen perustuvista vihapuheentunnistimista merkittäviä heikkouksia. Käyttäjien on yllättävän helppo kiertää vihapuheen suitsemiseen kehitettyjä tekoälytyökaluja. Tarkoituksellinen tai tahaton huono kielioppi ja kirjoitusvirheet voivat tehdä vihanlietsonnasta ja loukkauksista tekoälylle vaikeita tunnistaa.

Ryhmä kokeili seitsemän uuden tunnistamistyökalun tarkkuutta. Kaikki reputtivat testit.

Nykyaikaiset luonnollisen kielen prosessointiin käytetyt mallit pystyvät luokittelemaan tekstiä merkkien, sanojen ja lauseiden piirteiden perusteella. Kun mallit joutuvat analysoimaan tekstidataa, jollaista ei ole käytetty niiden opettamiseen, tulosten laatu alkaa kärsiä.

”Lisäsimme vihapuheeksi tai loukkaavaksi määriteltyjen kommenttien sekaan kirjoitusvirheitä, muokkasimme sanojen rajoja tai lisäsimme joukkoon neutraaleja sanoja. Välilyöntien poistaminen sanojen välistä osoittautui englanninkielisen sisällön manipuloinnissa tehokkaimmaksi. Kaikkia keinoja yhdistelemällä saimme jopa Googlen kommenttien arvottamiseen käyttämän Perspective-työkalun sekaisin”, kertoo Tommi Gröndahl, Aalto-yliopiston tohtorikoulutettava.

Google Perspective luokittelee kommenttien loukkaavuutta tai ”toksisuutta” eri tekstianalyysin menetelmien avulla. Vuonna 2017 Washingtonin yliopiston tutkijat osoittivat, että Perspectiveä voi kuitenkin huijata lisäämällä tekstiin pieniä kirjoitusvirheitä.

Gröndahl havaitsi kollegoineen, että Perspective on sittemmin oppinut tunnistamaan myös kirjoitusvirheet, mutta se on edelleen huijattavissa muunlaisella manipuloinnilla, esimerkiksi poistamalla välilyöntejä ja lisäämällä harmittomia sanoja, kuten love, ’rakkaus’.

Perspectiven ja monen muun edistyneen vihapuheentunnistimen seulan läpäisi esimerkiksi lause ”I hate you” (”minä vihaan sinua”), kun se muokattiin muotoon ”Ihateyou love”.

Tutkijat huomauttavat, että asiayhteys määrittää pitkälti sen, tulkitaanko yksittäinen kommentti vihaksi vai vain asiattomaksi tai mauttomaksi. Vihapuhe on subjektiivista ja kontekstisidonnaista, ja tutkijoiden mukaan pelkät koneelliset tekstianalyysimenetelmät eivät riitä sen tarkkaan tunnistamiseen.

”Ihmiset muuttavat toimintaansa ja alkavat kokeilla eri tapoja kirjoittaa, koska he haluavat välttää kiinnijäämistä. Ollakseen tehokas tekoäly tarvitsee avukseen ihmisen tekemää tulkintaa”, uskoo tutkimusryhmän johtaja, Aalto-yliopiston professori N. Asokan.

Tekstiä analysoivien koneoppimismallien kehittämisessä tulisi tutkijoiden mukaan kiinnittää huomiota mallien opettamiseen käytettävän datan laatuun ja monipuolisuuteen, eikä niinkään mallien rakenteiden hiomiseen.

Ryhmän tulokset osoittavat myös, että vihapuheentunnistimet voisivat olla nykyistä tarkempia, jos ne analysoisivat tekstiä yksittäisten merkkien ja niiden yhdistelmien tasolla. Lisäksi kommenttien kontekstin luokittelua pitäisi saada hienovaraisemmaksi, jotta mallit osaisivat erottaa toisistaan esimerkiksi rasismin, seksismin ja henkilökohtaiset hyökkäykset.

Tutkimus tehtiin yhteistyössä Aalto-yliopiston Secure Systems -ryhmän ja Padovan yliopiston tutkijoiden kanssa. Tulokset esitellään lokakuussa ACM AISec -konferenssissa Torontossa.

Ryhmän artikkeli on osa Aalto-yliopiston Secure Systems -ryhmän , joka tutkii tekstianalyysin keinoin valheellisen tai vilpillisen sisällön tunnistamista verkossa.

Tutkimusartikkeli:

Tommi Gröndahl, Luca Pajola, Mika Juuti, Mauro Conti, N.Asokan:
All You Need is "Love": Evading Hate-speech Detection.

��ä�پ��ٴ��Ჹ:
Tommi Gröndahl, tohtorikoulutettava
Aalto-yliopisto

tommi.grondahl@aalto.fi
puh. 0400 426 523

N. Asokan, professori
Aalto-yliopisto

n.asokan@aalto.fi
puh. 050 483 6465

��ä��ٱ�ٳٲ�: 1.7.2021
Julkaistu: 14.9.2018

Kollaasi työpajoista, ryhmäkuvista ja esityksistä Aalto Inventors -ohjelman ensimmäisen vuoden ajalta.

�۳�ٱ𾱲��ٲ�ö, Tutkimus ja taide Julkaistu: 29.4.2026

Aalto Inventors juhlii ensimmäistä vuottaan: Rakentamassa siltaa tutkimuksesta vaikuttavuuteen

Aalto Inventors juhlii ensimmäistä vuosipäiväänsä: se on osallistuttanut kuuden kurssin kautta 190 tutkijaa eri aloilta kuten tekoäly, kvanttiteknologia ja biomateriaalit. Uusia kursseja on suunnitteilla seuraavalle lukuvuodelle – pysy kuulolla ja liity postituslistalle.

Kolme ihmistä juttelee pyöreän pöydän ääressä; naisella muki kädessä, puhelin pöydällä

Tutkimus ja taide Julkaistu: 29.4.2026

Kuinka saada työntekijät takaisin toimistolle

Työpaikalle paluuta koskevat ohjeistukset miellyttävät työnantajia. Jotta työntekijät suhtautuisivat niihin myönteisesti, heille tulee tarjota kohtuullinen vastine autonomian rajoittamisesta.

Värikkäitä arkkitehtuurimalleja suurella valkoisella pöydällä näyttelysalissa

�۳�ٱ𾱲��ٲ�ö, Tutkimus ja taide Julkaistu: 28.4.2026

Arkkitehtuuriprojekti Milanossa yhdisti lasten ideat ja huippuarkkitehtien visiot

Aalto-yliopiston arkkitehtuurin laitos oli mukana kansainvälisessä One Earth – House of the Heart -projektissa, joka esiteltiin huhtikuussa Milano Design Weekillä.

Tutkimus ja taide Julkaistu: 27.4.2026

Yritykset raportoivat kyberturvallisuudesta enemmän, mutta markkinat eivät reagoi

Yhdysvaltalaiset yritykset raportoivat kyberturvallisuudestaan entistä tarkemmin, mutta osakemarkkinoilla reaktiot jäävät vaisuiksi. Vaasan yliopiston ja Aalto-yliopiston uusi tutkimus osoittaa, että pakollinen kyberraportointi ei innosta sijoittajia tai osakeanalyytikkoja. Sen sijaan suurin hyöty näyttää syntyvän yritysten sisällä.

������